IRIS

Klasy

W zbiorze znajdują się trzy różne klasy. Dla każdej z nich w zbiorze jest tyle samo próbek 50. Każda z klas przedstawia inny podgatunek kwiatu irys:

alt text

Atrybuty

Każdy kwiat jest reprezentowany poprzez wektor 4 wartości: długość i szerokość kielicha (sepal) oraz długość i szerokość płatka (petal).

Na przekątnej przedstawione są histogramy wartości poszczególnych atrybutów z podziałem na klasy.
W pozostałych komórkach pokazana jest zależność pomiędzy parami atrybutów.

Można zauważyć, że klasa iris-setosa jest wizualnie łatwo odzielalna (rozdział można wykonać przy użyciu prostej) od pozostałych dwóch klas.

Wykres zależności długości/szerokości płatków

PCA - principal component analysis

Standaryzacja danych, aby wszystkie atrybuty były w tej samej skali.

$ \texttt{Standardize}(x) = \frac{x - \mu_x}{\sigma_x} $

Projekcja danych na 2 pierwsze składowe główne przy użyciu PCA.

Projekcja na 2 główne składowe zachowuje 95.8% wariancji zbioru.

Wizualizacja danych po projekcji.

GLASS

Klasy

Zbiór GLASS w opisie klas zawiera 7 różnych klas typów szkła, jednak w samym zbiorze reprezentowane jest tylko 6 z nich (klasa 4 nie posiada żadnych reprezentantów).
Osłownikowane klasy:

  1. building_windows_float_processed
  2. building_windows_non_float_processed
  3. vehicle_windows_float_processed
  4. vehicle_windows_non_float_processed (none in this database)
  5. containers
  6. tableware
  7. headlamps

Ilość reprezentantów dla klas jest różna. Najwięcej reprezentantów mają klasy 1 oraz 2 - stanowią 68.2% wszystkich próbek.

Atrybuty

Każdy typ szkła jest reprezentowany przez wektor długości 9. Pierwszy atrybut to indeks refrakcji, pozostałe 8 to pierwiastki chemiczne których wartość oznacza jaka jest ich procent wagowy w tlenku, który tworzą w danym typie szkła.

Na przekątnej przedstawione są histogramy wartości poszczególnych atrybutów z podziałem na klasy.
W pozostałych komórkach pokazana jest zależność pomiędzy parami atrybutów.

Można zauważyć, że klasa 7 jest łatwo odzielalna na podstawie zawartości baru (Br) - pozostałe klasy mają znikomą zawartosć tego pierwiastka w porównaniu do tej klasy.

Wykres zależności Ba/Na

PCA

Projekcja na 2 główne składowe zachowuje 50.7% wariancji zbioru. Jest to zdecydowanie mniej niż przy zbiorze Iris. Głównym powodem takiego zachowania jest prawdopodobnie większa ilość atrybutów jak i klas.

Wizualizacja danych po projekcji.

Dane nie są zbyt dobrze rozdzielone przy użyciu 2 komponent. Wykonajmy dekompozycję na 3 składowe.

Projekcja na 3 główne składowe zachowuje 66.3% wariancji zbioru - poziom 15% wariancji zawarty na 3 składowej zdaje się być wystarczająco wysoki aby zaliczyć tą składową do analizy.

Dekompozycja na 3 składowe lepiej odseparowuje klasy, co pozwala na późniejsze lepsze działanie algorytmu klasyfikującego.

WINE

Klasy

Zbiór WINE zawiera reprezentantów 3 różnych klas rodzajów win. Jedyne co wiemy o klasach na podstawie opisu zbioru to to, że każde z win pochodzi z innej odmiany winogron z Włoch. Ilość reprezentantów dla klas jest różna, ale dosyć podobna - klasy są dużo lepiej zbalansowane niż to miało miejsce w zbiorze GLASS.

Atrybuty

Każdy typ wina jest reprezentowany przez wektor długości 13. Atrybuty przedstawiają własności chemiczne wina takie jak poziom alkoholu, poziom obecności poszczególnych pierwiastków czy kolor i intensywność.

Na przekątnej przedstawione są histogramy wartości poszczególnych atrybutów z podziałem na klasy.
W pozostałych komórkach pokazana jest zależność pomiędzy parami atrybutów.

Można zauważyć, że klasa 1 jest łatwo odzielalna na podstawie od pozostałych klas na podstawie atrybutu przedstawiającego zawartość proliny (proline).

Wykres zależności flawanoidów/poliny

PCA

Projekcja na 2 główne składowe zachowuje 55.4% wariancji zbioru. Jest to zdecydowanie mniej niż przy zbiorze Iris i minimalnie więcej niż na zbiorze GLASS (o 5 pkt. %). Mimo to, patrząc na wizualizacje projekcji, separowalność klas jest na znacznie wyższym poziomie niż było to dla zbioru GLASS. Prawdopodbnie rolę gra tu ilość klas oraz dobry ich balans.

Wizualizacja danych po projekcji

Pytania

1. Czym się różnią zbiory danych analizowane w treści zadania? Na czym może polegać „trudność” analizy. Który z nich wydaje się być łatwiejszy/trudniejszy?

Odp: Zbiory analizowane w zadaniu różnią się ilością atrybutów, klas oraz ich balansem. Trudność analizy może głównie polegać na źle zbalansowanym rozkładzie klas w zbiore - zbiór GLASS. Dodatkowym problemem może być duża ilość atrybutów dla zbioru przy małej ilości reprezentantów - zbiór WINE. Zbiór Iris jest zdecydowanie najłatwiejszy, natomiast GLASS zdaje się być najtrudniejszy ze względu na większą ilość klas ich słaby balans oraz taką samą ilość reprezentantów jak ma to miejsce dla pozostałych zbiorów (a klas jest więcej).

2. Czy nierównomierny rozkład klas w zbiorze może stanowić problem dla analizy i dalszej budowy modelu danych?

Odp. Tak, model może overfittować się na klasy z wieloma przypadkami, gdy optymalizacja nie będzie odpowiednio ważone - błędy na reprezentantch klasy z większą ich ilością mniej wpływają na potecjalną funckję straty. Dodatkowo klasa z małą ilością reprezentantów gorzej reprezentuje prawdziwy rozkład i potencjalni outlierzy w posiadanym zbiorze mają większy wpływ na działanie optymalizatora.

3. Jak działa PCA i kiedy warto go stosować?

Odp: PCA polega na liczeniu macierzy kowariancji atrybutów, a następnie wyznaczania wektora własnego z największą wartości własną owej macierzy. Wektor własny $\mathbf{e}$ macierzy $\mathbf{A}$ ma następującą własność: $\mathbf{A}\mathbf{e} = \lambda\mathbf{e}$, gdzie $\lambda$ jest skalarem. Wektor własny danej macierzy to taki, który po przemnożeniu przez nia nie spada z prostej, na której leży - zmienia się tylko jego długość i zwrot, a nie kierunek. Największy wektor własny macierzy kowariancji przedstawia kierunek największej wariancji w zbiorze. W taki sposób wyznaczany jest nowy atrybut, który zawiera najwięcej informacji ile jednowymiarowy atrybut przedstawiać może. Szukanie kolejnych składowych odbywa się w ten sam sposób co opisany powyżej po ówczesnym usunięciu poprzednich składowych z danych. PCA warto stosować gdy mamy doczynienia z wielowymiarowymi danymi, możemy znacznie zmniejszyć ich wymiarowość równocześnie zachowując jak najwięcej informacji ile jest zawartych we wszystkich atrybutach co ułatwia optymalizację oraz nie degraduje minimum globalnego, które możemy osiągnąć.